账号不能为空
密码不能为空
账号或密码错误
手机号码未注册
手机号码格式错误
图形验证码错误
填写图形验证码
动态密码错误
填写动态密码
两次密码不一致
手机号已被注册
第1节 性别-年龄进行用户画像第一阶段实现运行
第2节 性别-年龄进行用户画像算法实现
第3节 性别-年龄进行用户画像总结
第4节 用户画像概念
第5节 对年龄进行画像分析
第6节 年龄进行用户画像MR代码分析与数据解析
用户画像:
用户画像也叫用户信息标签化、客户信息。 根据用户的信息和行为动作,用一些标签把用户描绘出来,描绘的标签就是用户画像。
appID:
用于标记APP,APP的唯一编号,判断终端安装的APP。
年龄段说明:
名称
说明
年龄段1
24岁以下
年龄段2
25-30岁
年龄段3
31-35岁
年龄段4
36-40岁
年龄段5
40岁以上
标签库的设计,主要是针对应用市场上主流的App,对App进行分类,App分类信息包括:App名称,男女权重信息,各个年龄段的权重信息。
AppID
App名称
男性权重
女性权重
见appTab表:
10001|QQ|0.001|0.001|0|0.2|0.3|0.2|0.3
10002|飞信|0.001|0.001|0|0.2|0.3|0.2|0.3
10003|MSN|0.001|0.001|0|0.2|0.3|0.2|0.3
10004|阿里旺旺|0.001|0.001|0|0.2|0.3|0.2|0.3
10005|微信|0.001|0.001|0|0.2|0.3|0.2|0.3
10006|陌陌|0.001|0.001|0|0.2|0.3|0.2|0.3
10007|米聊|0.001|0.001|0|0.2|0.3|0.2|0.3
10008|啪啪|0.001|0.001|0|0.2|0.3|0.2|0.3
10009|飞聊|0.001|0.001|0|0.2|0.3|0.2|0.3
10010|来往|0.001|0.001|0|0.2|0.3|0.2|0.3
10011|连我|0.001|0.001|0|0.2|0.3|0.2|0.3
10012|有你|0.001|0.001|0|0.2|0.3|0.2|0.3
必备条件:性别比例、年龄比例必须在识别出AppID后进行,如果AppID编号为空,则不做处理。
性别和年龄的判断,都依赖于标签库的设计,也就是用户手机安装的App,根据手机App计算用户的性别和年龄权重信息,最后判断用户的年龄和性别。
表结构:用户画像本体表
字段名
类型
长度
默认值
备注
日期
记录历史时间
MSISDN
byte
16
全F
手机号
年龄段1权重
年龄段2权重
年龄段3权重
年龄段4权重
年龄段5权重
汇总周期:每天汇总一次,建议当天凌晨统计前一天数据
程序运行环境:hadoop集群、zookeeper、hbase。
appTab.txt规则库表hdfs路径:/home/appTab.txt
程序执行jar包:userdraw.jar
程序执行命令:hadoop jar userdraw.jar 数据输入路径 job1输出路径 job2输出路径
如果想继续收看,请购买该视频,或者办理vip,进行免费学�?
一、 概念
用户画像:
用户画像也叫用户信息标签化、客户信息。 根据用户的信息和行为动作,用一些标签把用户描绘出来,描绘的标签就是用户画像。
appID:
用于标记APP,APP的唯一编号,判断终端安装的APP。
年龄段说明:
名称
说明
年龄段1
24岁以下
年龄段2
25-30岁
年龄段3
31-35岁
年龄段4
36-40岁
年龄段5
40岁以上
二、 标签库设计:
标签库的设计,主要是针对应用市场上主流的App,对App进行分类,App分类信息包括:App名称,男女权重信息,各个年龄段的权重信息。
AppID
App名称
男性权重
女性权重
年龄段1
年龄段2
年龄段3
年龄段4
年龄段5
见appTab表:
10001|QQ|0.001|0.001|0|0.2|0.3|0.2|0.3
10002|飞信|0.001|0.001|0|0.2|0.3|0.2|0.3
10003|MSN|0.001|0.001|0|0.2|0.3|0.2|0.3
10004|阿里旺旺|0.001|0.001|0|0.2|0.3|0.2|0.3
10005|微信|0.001|0.001|0|0.2|0.3|0.2|0.3
10006|陌陌|0.001|0.001|0|0.2|0.3|0.2|0.3
10007|米聊|0.001|0.001|0|0.2|0.3|0.2|0.3
10008|啪啪|0.001|0.001|0|0.2|0.3|0.2|0.3
10009|飞聊|0.001|0.001|0|0.2|0.3|0.2|0.3
10010|来往|0.001|0.001|0|0.2|0.3|0.2|0.3
10011|连我|0.001|0.001|0|0.2|0.3|0.2|0.3
10012|有你|0.001|0.001|0|0.2|0.3|0.2|0.3
三、 用户性别、年龄识别过程:
必备条件:性别比例、年龄比例必须在识别出AppID后进行,如果AppID编号为空,则不做处理。
性别和年龄的判断,都依赖于标签库的设计,也就是用户手机安装的App,根据手机App计算用户的性别和年龄权重信息,最后判断用户的年龄和性别。
表结构:用户画像本体表
字段名
类型
长度
默认值
说明
备注
日期
记录历史时间
MSISDN
byte
16
全F
手机号
男性权重
女性权重
年龄段1权重
年龄段2权重
年龄段3权重
年龄段4权重
年龄段5权重
汇总周期:每天汇总一次,建议当天凌晨统计前一天数据
四、 用户画像程序执行
程序运行环境:hadoop集群、zookeeper、hbase。
appTab.txt规则库表hdfs路径:/home/appTab.txt
程序执行jar包:userdraw.jar
程序执行命令:hadoop jar userdraw.jar 数据输入路径 job1输出路径 job2输出路径
第1章 用户画像项目
推荐课程